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Предложена оригинальная модель реляционной базы данных, в основе которой лежит представление доменов в виде деревьев 
И -ИЛ И. Разработаны оригинальные алгоритмы генерации и идентификации кортежей. Показана возможность существенного 
сжатия базы данных при небольших значениях мощностей доменов. 


Введение 

Анализ реальных информационных систем по- 
казывает, что зачастую домены таблицы имеют не- 
большие множества значений. Например, атрибу- 
ты: «сотрудник», «зарплата», «профессия», «воз- 
раст», «дата», «время» и т. д. [1]. Поэтому возможно 
предложить следующую идею: каждому кортежу 
декартовою произведения множеств степенью п 
ставится в соответствие число и вместо кортежа в 
базе данных хранится это число. Для этого зададим 
отображение: 

і 7 :1х1х...хі N , 

I 2. п п~ 

где А 1 хА 2 х...хА п - декартово произведение мно- 
жеств; УѴ Й - множество номеров 0, п. 

Если Р биективно, то можно задать обратное 
отображение: 

Р : N — ^ А , х Аг. х ...х А . 

П I 2. п 

Таким образом, биективное отображение Р за- 
дает алгоритм идентификации кортежа декартово- 
го произведения: 

пит - Капк(Р,а), 

где аеА 1 хА 1 х...хА ю питеМ ю В - описание мно- 
жеств декартовою произведения А х хА 2 х...хА п . А 
отображение Р~ 1 задает алгоритм генерации значе- 
ния кортежа по номеру: 

а = 0епегаіе(О ,пит), 


где аеА 1 хА 2 х...хА п , питеМ п , Д - описание мно- 
жеств. Тогда отношение К<^А{хА 2 х...хА ю питеМ п 
можно однозначно представить подмножеством 
целых чисел N^Мс 1 N п . 

Используя алгоритмы Каик и Оепегаіе можно 
предложить следующую структуру базы данных 
(рис. 1). При записи кортежа в базу данных работает 
алгоритм Каик, который присваивает номер данно- 
му кортежу. Далее этот номер хранится в базе дан- 
ных. При выборке данных из базы работает алго- 
ритм Оепегаіе, который по заданному номеру полу- 
чает кортеж. Важным элементом является описание 
множеств декартовою произведения Д. Рассмотрим 
подробнее способы организации Д, Каик, Оепегаіе. 



Рис. 1 . Описание структуры базы данных 


28 


Естественные науки 


1. Алгоритмы генерации и идентификации 
на основе деревьев И-ИЛИ 

Рассмотрим способ построения описаний мно- 
жеств значений доменов Д алгоритмов идентифи- 
кации Капк и генерации Оепегаіе. В качестве тако- 
го инструмента предлагается использовать деревья 
И-ИЛИ [2]. Правила построения дерева И-ИЛИ 
следующие: 

1. Если некоторое множество разбивается на п 
множеств {А}" = ъ то это разбиение можно пред- 
ставить ИЛИ-узлом. При этом должно быть вы- 
полнено следующее условие: 

П 4 = 0 - (1) 

2=1 

2. Если искомое множество является комбинаци- 
ей элементов из п множеств, то данное преобра- 
зование представляется И-узлом. В этом случае, 
условие (1) не требуется, необходимо, что бы 
комбинация была уникальной. 

Листьями такого дерева являются элементы или 
множества, разбиение которых не производится. 
Используя два этих правила можно строить деревья 
И-ИЛИ для описания различных классов множеств. 

Вариантом дерева И-ИЛИ назовем дерево, ко- 
торое получается из заданного путем отсечения дуг 
кроме одной у всех ИЛИ-узлов. Корнем варианта 
будет являться корень дерева И-ИЛИ. На рис. 2 по- 
казан пример дерева И-ИЛИ и всех его вариантов. 

Если дерево описывает некоторое множество, 
то вариант описывает один элемент множества. 
Тогда общее число вариантов в дереве (или мощ- 
ность множества) можно вычислить по формуле: 

г 

П 

^ш(^ 7 ) для ИЛИ-узла 

2=1 

22 

00 ( 2 ) - \ ГТ для И-узла , 

м (2) 

і 


V 


где г - рассматриваемый узел дерева; ^ - множе- 
ство сыновей узла %;п — число сыновей. 

Тогда, зная а>(%) для каждого узла, можно пред- 
ложить следующий алгоритм генерации варианта 
(Оепегаіе): 

1. Корень дерева записывается в вариант и зано- 
сится в стек 8іаск <- < з гооі ,1 > . 


2 . 

3. 

4. 


Из стека вынимается пара < 2,1 2 > <г- 8іаск. 

Если стек пуст, то завершить работу. 

Определяется тип текущего узла. Если это И-узел, 
то переход на шаг 4, иначе переход на шаг 5. 

Все сыновья {$/}'”=, рассматриваемого узла г за- 
писываются в данный вариант V , вычисляется 
Ші), используя выражение 


ГЮ = 


Ш 


2-1 


то &(о(8 2 .) і > 1 


ги*;> 

7=1 

I А (і) то А со(^ 2 ) 


і = 1 



и пары <8?,1 А (ф> заносятся в стек. 

5. Если это ИЛИ-узел, то, используя выражение 


г 



определяется единственный сын ^ и / 0 ($). Сын запи- 
сывается в вариант V, а пара <$%,фк)> заносится в стек. 

6. Переход на шаг 3. 

Анализ данного алгоритма показывает, что вре- 
менная сложность пропорциональна количеству 
узлов, которые заносятся в стек, следовательно, 
пропорциональна числу узлов в варианте. При 
этом количество делений равно числу сыновей всех 
И-узлов варианта плюс число сложений и сравне- 
ний для ИЛИ узлов (см. выражения 3 и 4). 


ИЛИ - узел 


И - узел 



Рис. 2. Дерево И-ИЛИ и все его варианты 
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Теорема. Пусть дано дерево И-ИЛИ В и для 
каждого узла имеется ш(г), тогда алгоритм ге- 
нерации задает биективное отображение Ѳ.Ы п —>1Ѵ, 
где ]Ѵ - множество всех вариантов. Покажем что 
отображение О инъективно, т. е. для Ѵ/Д/ следует, 
что 0{І)фО{]). Это утверждение основывается на 
рассмотрении выражений (3) и (4). Выражение (3) 
заданным числам / и у ставит в соответствие два раз- 
ных набора чисел для сыновей узла И, поскольку 
происходит преобразование чисел / и у в числа со 
смешанными основаниями, представленными 
{сфД}- =1 для узла ^ Выражение (4) числам / и у для 
узла ИЛИ, получает две разных пары (к, I ), где к - 
номер узла, / - значение ю(^). Таким образом, ал- 
горитм Оепегаіе задает инъективное отображение 
Поскольку множества 7Ѵ, и Ж конечны и 
мощности их равны, следовательно, отображение 
0:Ы п —>}Ѵ биективно. Из этого следует, что 
ѴКеВЭ/еТѴ, что Ѵ=С(і), следует, что для любого 
варианта дерева И-ИЛИ можно найти единствен- 
ный номер /. Построим алгоритм нумерации вари- 
анта для данного дерева И-ИЛИ. Для этого необхо- 
димо найти сопоставление варианта V в дереве В и 
нахождение соответствующего номера /. 

Сопоставление производится следующим образом: 

1. Первоначально в стек М х заносится корень ва- 
рианта V ] в стек М 2 корень дерева Д. 

2. Если стек М х пуст, то завершить работу алгоритма. 

3. Из стека М х извлекается узел варианта сіѵ и из 
стека М 2 извлекается узел й. 

4. Если это узлы И, то все сыновья сіѵ заносятся в стек 
М х , а сыновья сі заносятся в М 2 . Переход на шаг 2. 

5. Если это узлы ИЛИ, то сын сіѵ ищется в множе- 
стве сыновей узла сі. Если найдено совпадение, 
то сыновья заносятся в стек. Переход на шаг 2. 

6. Если йѵжй листья, то они удаляются из стека. 

Вычисление номера начинаем производить с 
рассмотрения листьев варианта V Все листья вари- 
анта имеют значения со(і)= 1. 

После того как сопоставление найдено, выпол- 
няем следующие действия: 

1 . Для каждого И-узла і вычисляем 

К =к + )(/ 2 +ю(я 2 )(...(/„)ю(А _,)).••)), 

где {у)- = | - сыновья узла г, а {(}■=, - соответствую- 
щие номера, полученные для сыновей. 

2. Для каждого ИЛИ-узла вычисляем 

к - 1 

1 2 — У ' с о(і ) + І х , 

і - 1 


где к - номер соответствия для узла ИЛИ в дереве 
Д І х - номер варианта для этого сына. Рекурсивно 
производим вычисления номера, пока не достиг- 
нем корня дерева. Полученное число / г для корня 
варианта будет номером варианта, т. е. Ѵ=Я(1 1 ). 
Очевидно, что /<ш(г). Таким образом, для множе- 
ства, представленного деревом И-ИЛИ, можно 
создать алгоритмы Капк и Оепегаіе. 

2. Преобразование таблицы атрибутов в дерево И-ИЛИ 

Рассмотрим построение дерева И-ИЛИ для та- 
блицы атрибутов. Поскольку значение 
аеА х хА 2 х...хА п является комбинацией элементов из 
множеств {АЦи, то корень дерева будет И-узлом, 
имеющих п сыновей, каждый /- й сын соответствует 
множеству Д, графическое изображение такого со- 
ответствия показано на рис. 3. 


Рис. 3. Соответствие между таблицей и деревом И-ИЛИ 

Общее число множества значений вычисляется 
по формуле: 

С °ТТ) = П®(4)- 

і = 1 

Далее для каждого множества Д строится свое 
дерево И-ИЛИ. В общем случае можно предста- 
вить множество значений Д 

1. справочником; 

2. числовым интервалом; 

3. деревом И-ИЛИ. 

Для представления множества уникальных 
объектов, которые используются в базе данных не- 
которого домена, используется справочник. Спра- 
вочник имеет две части, первая часть содержит 
пронумерованные уникальные объекты, вторая 
часть резервная, предназначена для внесения но- 
вых объектов. Соответствие между справочником 
деревом И-ИЛИ показано на рис. 4. Справочник 
представляется ИЛИ-узлом, а все сыновья являют- 
ся элементами справочника. Тогда общее число ва- 
риантов дерева (или элементов множества) равно: 

со(А і ) = п + т. 



жг 

А2 
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Рис. 4. Соответствие между справочником и деревом И-ИЛИ 
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Для представления числового интервала задает- 
ся границы и шаг, тогда данное множество можно 
представить деревом И-ИЛИ, которое имеет ИЛИ- 
узел в качестве корня, а сыновья, конкретные зна- 
чения чисел из этого интервала. Графическое изо- 
бражение такого дерева показано на рис. 5. 



Тогда общее число вариантов (элементов мно- 
жества) будет: 

Множество значений Д может быть представле- 
но деревом И-ИЛИ. Рассмотрим несколько наибо- 
лее распространенных примеров. Если Д это дата, 
то ее можно представить следующим деревом И- 
ИЛИ (рис. 6): 



Рис. 6. Дерево И-ИЛИ для представления даты 


Здесь при описании даты год представлен неко- 
торым числовым интервалом. Например, 
1950-2050, А=1. Тогда общее число вариантов мо- 
жет быть представлено формулой: 

со(Дата) = со{денъ) • со (месяц) • со (год). 


Аналогично может быть представлен атрибут 
«время». На рис. 7 показано дерево И-ИЛИ для 
представления атрибута. 



Рис. 7. Дерево И-ИЛИ для представления атрибута «время» 

Тогда общее число вариантов может быть пред- 
ставлено формулой: 

со(Время) = со {час) • со {минута) • со {секунда ). 


Таким же образом, можно представить атрибу- 
ты «Зарплата» и «Коэффициент» (рис. 8). 




Рис. 8. Деревья И-ИЛИ для представления атрибутов « зар- 
плата » и « коэффициент » 

3. Оценка мощности множества вариантов дерева 
И-ИЛИ для представления декартового произведения 

Пусть дано декартово произведение множеств 
ДхДхДхДхДхДхДхД, где: 

4-> ФИО; 

Листаж; 

Лз^оклад; 

^^проработанное время; 

^^коэффициент; 

Л 6 — >дата; 

Лу^должность; 

Порайонный коэффициент. 

Пусть в фирме работает 1000 чел., текучесть ка- 
дров 100 чел. в год. Тогда 

0(4) = (1000 + 2000) =3000 =3 +10 3 
со{А 2 ) = [(0, 1 00), А =1] =100 =10 2 
со{А 3 ) = 100[(0,10 6 ), А =1] = 10 8 -> 
со{А 4 ) = 24-30 =720 ^10 3 
со{А 5 ) = [(0, 1), А = 0, 001] =100 =10 2 
со{А 6 ) = 74400 * 75000 = 75 Т 0 5 
со{А 7 ) = (200 + 800) =1000 =10 3 
со{А%) =[(1,2), А = 0,1] =10 = 10 1 
Тогда 

соф) = Цсо{А ( ) = (3 ТО 3 ) • (ІО 2 ) *(Ю 8 ) х 

2=1 

х(720) • (Ю 2 ) • (75 • 10 3 ) • (10 3 ) • (10 1 ) = 1, 62 ТО 27 . 

Таким образом, все множество картежей мень- 
ше, чем 1,62Т0 27 и 10 28 <2 93 . 

8 

Тогда, для представления номера картежа П 

необходимо 93 бита или 12 байт. Оценим теперь раз- 
мер дерева И-ИЛИ Д для описания множества корте- 
жей. Общий размер дерева вычисляется по формуле: 

8ше{П) = УДше{АД 

7 = 1 

где 8Де{А { )=п- 8ііе{ФИО)= 1000-60. 
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Все множества, описываемые интервалами зна- 
чений, имеют фиксированную длину Соші. 

8 І 2 е(А 7 )-П' 8 І 2 е(должностъ ) = 200 • 40. 

Тогда ЛгК^) = 60000+8000+Со^/-6<70000. Это 
означает, что объем базы данных будет равен: 

8 В =ЫЛ 2 + 8 іге(р\ 

где N - число кортежей в базе; 8ііе(П) - размер 
описания дерева И-ИЛИ для описания множеств. 

Предположим, что в базе имеется 1000 корте- 
жей, тогда: 

5=12000+70000=82000 байт. 

Оценим размер таблицы при традиционном 
подходе: 

8 Т = N • 8 іге(Строка ) = (1000) • (128) = 128 000 байт. 

Тогда коэффициент сжатия будет равен: 

^ _ 8 Т _ N - 8 І 2 е(Строка) _ 

8 В N • 8 І 2 е(пит ) + 8 ііе (В ) 

_ 8 І 2 е(Строка) 

с . , ч ЗІ 2 е(В ) ' 

8 і 2 е(пит) н — - 
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В нашем примере этот коэффициент равен 
128000/70000=1,82. 

Однако для больших значений N можно полу- 
чить значительный эффект, при условии, что раз- 
мер Д не пропорционален N. Тогда такое постро- 
ение базы данных позволяет в разы сократить раз- 
мер базы данных. 

Заключение 

Предложенный подход к построению баз дан- 
ных, основанный на построении алгоритмов гене- 
рации и идентификации кортежей, позволяет су- 
щественно сжимать объемы хранимой информа- 
ции. Особенно для тех баз данных, для которых до- 
мены имеют фиксированный размер. Однако ре- 
альные размеры справочников могут иметь разме- 
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ры 10 6 и более. Тогда значения со(В) = ]^[<т>(4) мо- 

і = 1 

гут превышать значение 10 100 . Переход на архитек- 
туру процессоров с разрядностью регистров 64 и 
128 решит возникающие трудности по обработке 
больших целых чисел. 
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